Новости

25.03.2025

Объем корпуса «‎Русская классика»‎ увеличился на 7,5 млн слов. В него добавлены академические полные собрания сочинений Ф. М. Достоевского и Н. А. Некрасова, большая часть написанных по-русски писем И. С. Тургенева, а также некоторые ранее не включенные тексты других авторов. 

Сервис «‎Похожие слова»‎ теперь доступен не только для всего корпуса в целом, но и отдельно для произведений 9 авторов, объем сочинений которых достаточно велик. При помощи этого виджета можно сравнивать употребление слова в авторском стиле разных писателей.

Не всегда ассоциаты слова у того или иного автора информативны (особенно если слово у него встречается редко или в слишком разнообразных контекстах), однако во многих случаях они дают ярко индивидуальную картину. Например, слово страсть у Пушкина окрашено в целом положительно (в ряду с красотой и свободой), а у Толстого — резко отрицательно (как похоть и злоба); лошадка у Лескова —​​​​​​​ примета быта, а у Чехова — одно из многочисленных прозвищ жены писателя, Ольги Книппер.

Расширены возможности экспорта данных из Многоязычного параллельного корпуса. Теперь при выгрузке в Excel, Word и CSV автоматически сохраняются параллельные контексты и дополнительная информация — язык перевода и данные о переводчике.

25.02.2025

Мы продолжаем совершенствовать Портрет слова в НКРЯ. Недавно в нем появилась возможность сравнивать скетчи, а теперь в Портрете слова Основного корпуса можно изучить, как менялись слова-ассоциаты во времени, а также ознакомиться с толкованием слова.

Виджет «Толкование β» содержит определения искомого слова, сгенерированные нейросетью. Сейчас авторизованным пользователям сайта доступны определения примерно для 5,5 тысяч слов, которые чаще всего искали в Основном корпусе. Толкования могут содержать ошибки и неточности – мы просим вас сообщать о них, используя кнопку «‎Оценить»‎ рядом с виджетом. Ваша обратная связь поможет нам улучшить генерацию толкований.

Виджет «‎Похожие слова»‎ теперь позволяет изучать список слов-ассоциатов (то есть слов, употребляемых в таких же контекстах, как искомое слово – не путать с синонимами!) не только по всему корпусу, но и по текстам, созданным в определенный период времени. Все тексты Основного корпуса с 1700 по 2022 год поделены на 11 временных периодов. Пользователи могут посмотреть на похожие слова одного периода или сравнить два периода, а также скачать скриншот. Например, интересно проследить, как менялись семантические ассоциаты слова ‎поезд или машина.

11.02.2025

В Портрете слова Основного, Обучающего, Газетных корпусов, а также корпусов «‎От 2 до 15»‎ и «‎Русская классика»‎ появилось сравнение скетчей!

Новый функционал позволяет увидеть сходства и различия в употреблении двух слов. Например, можно узнать, что общего у времени и денег или увидеть, что бывает колючим, а что – колким

Cравнение скетчей доступно для существительных, прилагательных, глаголов и наречий. Сравнить можно две леммы, относящиеся к одной и той же части речи. Для слов, встретившихся менее чем в 3 разных текстах, а также для имен собственных, аббревиатур и слов, имеющих нестандартные написания, скетчи не выводятся и сравнение скетчей недоступно.

Для сравнения отбирается по топ-6 коллокатов для каждого ключа. В сравнительной таблице может быть меньше 12 коллокатов в случае, если не набралось 6 коллокатов для одного или обоих ключей или есть пересечения в топ-6.

11.02.2025

Мультимедийный корпус пополнен на 107 тыс. словоупотреблений. В него были добавлены: коллекция записей художественного чтения — рассказы А.П. Чехова в исполнении известных актеров Александра Борисова, Леонида Броневого, Игоря Ильинского, Ростислава Плятта; две театральные постановки, записи телевизионных ток-шоу. Значительно пополнена коллекция записей региональной речи. В нее вошли беседы и интервью с жителями Нижегородской, Мурманской, Рязанской, Свердловской, Тверской областей, Краснодарского края, Якутии и др., которые являются героями сюжетов документальных фильмов из цикла «Письма из провинции» и видеоблогов.

В корпусе появилась возможность отбора подкорпуса по региону.